Привет пользователям Webmasters.RU и всем кто читает эту статью. Написана она специально для конкурса «Статейный конкурс с призовым фондом 1000 у.е.»
Теперь ближе к теме. В интернете существует очень много статей о создании robots.txt для различных движков. Практически во всех статьях robots.txt составлен по разному и это вводит людей в заблуждение. В данной статье я покажу как я составляю robots.txt для своих сайтов.
В основном я работаю с CMS DLE, так как считаю его самым удобным для своего использования, да и привык я к нему очень, а значит уже набил руку и неплохо разбираюсь. Помимо DLE, я еще напишу о WP, а так же о Bullet Energy (это форум который тесно интегрирован с DLE, дополнение к нему небольшое, но весьма существенное).
Начнем мы с CMS DLE и форума CMS Bullet Energy ( кстати, пишу о нем так как сам его использую и считаю самым лучшим форумом для CMS DLE, стоит отметить и то, что форум условно бесплатный).
В моем robots.txt будет две директивы User-agent: Общая директива User-agent: * для всех роботов, и отдельная директива для Яндекса User-agent: Yandex.
И так, приступим.
Первым делом всегда закрываю редирект внешних ссылок. В DLE, стандартно, он имеет вид site.ru/engine/go.php, а это значит что первая строка у нас будет такого вида:Код:Так же я закрываю страницу с статистикой сайта, так как там будут ссылки на все комментарии, новости, пользователей – а все это создаст много дублей, чего нам не нужно:Disallow: /engine/go.phpКод:Дальше закрываем страницы с информацией о пользователе, которые имеют видDisallow: /statistics.html
index.php?subaction=userinfo&user=admin. Так же сразу пропишем страницы с выводом последних новостей, комментариев, регистрации, добавления новостей, «Забыли пароль», ссылки на личные сообщения.Код:Для тех кто не очень разбирается, поясню что такое «*» - этот знак означает любую последовательность символов. То есть что бы на месте * не было, но если дальше будет то, что мы прописали – в индекс оно не попадет.Disallow: /*subaction=userinfo Disallow: /*subaction=newposts Disallow: /*do=lastcomments Disallow: /*do=feedback Disallow: /*do=register Disallow: /*do=lostpassword Disallow: /*do=addnews Disallow: /*do=stats Disallow: /*do=pm
В DLE есть 2 вида ссылок по которым можно попасть в профиль пользователя, так что нужно закрыть и второй вид:Код:Дальше предпочитаю закрывать страницы с архивами, которые так же дублируют контент сайта:Disallow: /user/Код:Пояснение:year в данном случае определенный год – 2011, 2012, 2013 и тд. Сюда Вы подставляете те года, с которых у Вас публикуются новости. И помните, для каждого года – своя строка.Disallow: /year/
Следующей командой мы закроем сразу несколько ссылок вида site.ru/index.php?do= В основном это ссылки на регистрацию, добавление новостей, различные модули которые дублируют контент и не нужны нам.
Код:Дальше я закрываю страницы сайта от индексации. Это достаточно выгодно так как в поиске будут попадаться лишь страницы с полным видом новостей, где пользователь сможет получить максимум информации которую он искал. Если не закрывать страницы сайта, с поиска люди могут попадать к примеру на 5-6 страницу сайта, и им придется еще и там искать то что им нужно. Мало кому захочется это делать, он закроет сайт и пойдет дальше. Так что этой командой мы так же немного уменьшим процент отказов. И еще один положительный момент, нам не придется закрывать категории от индексации, а лучше оптимизируем их и получим дополнительный трафик.Disallow: /index.php?do=
Код:Естественно для User-agent: Yandex нам следует указать главное зеркало.Disallow: *page/Код:Ну и не стоит забывать о карте сайта:Host: site.ru (или же www.site.ru)
Код:Вот собственно и все, в результате у нас должен появится robots.txt такого вида:Sitemap: http://forpda.net/sitemap.xml
Код:Прошу заметить, в данном Robots.txt указаны одинаковые запреты для всех поисковых систем.User-agent: * Disallow: /engine/go.php Disallow: /statistics.html Disallow: /*subaction=userinfo Disallow: /*subaction=newposts Disallow: /*do=lastcomments Disallow: /*do=feedback Disallow: /*do=register Disallow: /*do=lostpassword Disallow: /*do=addnews Disallow: /*do=stats Disallow: /*do=pm Disallow: /2011/ Disallow: /2010/ Disallow: /2012/ Disallow: /2013/ Disallow: /index.php?do= Disallow: *page/ User-agent: Yandex Disallow: /engine/go.php Disallow: /statistics.html Disallow: /*subaction=userinfo Disallow: /*subaction=newposts Disallow: /*do=lastcomments Disallow: /*do=feedback Disallow: /*do=register Disallow: /*do=lostpassword Disallow: /*do=addnews Disallow: /*do=stats Disallow: /*do=pm Disallow: /2011/ Disallow: /2010/ Disallow: /2012/ Disallow: /2013/ Disallow: /index.php?do= Disallow: *page/ Host: site.ru Sitemap: http://site.ru/sitemap.xml
А теперь о форуме Bullet_Energy, так как он тесно интегрирован с CMS DLE, все ссылки у них идентичны. Но есть и свои ссылки, в частности одна, на которую нам следует обратить внимание. Форум дает возможность разметить ссылку в каждой новости, клик по которой создаст тему с обсуждением данной новости на форуме. В итоге у Вас будет очень много страниц с ошибками, точней страниц будет столько, сколько новостей на сайте. Чтобы уберечь свой сайт от этого, к обеим директориям следует добавить строку:
Код:Robots.txt составлен для актуальной на этот момент версии DLE 9.6Disallow: /forum/discussion
Теперь приступим за WordPress. Здесь, как и в DLE, мы будем использовать те же 2 директории User-agent: *,User-agent: Yandex.
И так, для начала мы закроем страницы входа и регистрации на сайте которые имеют вид site.ru/wp-login.php и site.ru/wp-register.php
То есть прописываем 2 строки:
Код:Дальше нужно закрыть страницы rss ленты и запретить индексацию trackback. Значит прописываем еще несколько строк:Disallow: /wp-login.php Disallow: /wp-register.php
Код:Дальше нужно запретить индексировать те страницы новости, если появляется много комментариев, и они создают дубли этой страницы:Disallow: /trackback Disallow: */trackback Disallow: */feed
Код:Так же как и в случае с Robots.txt для DLE, мы закрываем страницы сайта от индексации которые имеют вид: site.ru/page/3; и закрываем страницы категорий вида site.ru/category/nasha-cat/page/3Disallow: */comments Disallow: */comment-pageКод:Так же очень многие используют на своих блогах страницы с архивами и метки, которые так же приводят к дублированию страниц. Их так же мы закрываем:Disallow: /page/* Disallow: /category/*/*Код:Примечание: year в данном случае определенный год – 2011, 2012, 2013 и тд. Сюда Вы подставляете те года, с которых у Вас публикуются новости. И помните, для каждого года – своя строка.Disallow: /year/* Disallow: /tag/*
Ну и не стоит забывать о поиске и другом мусоре который присутствует в WP. Закрываем подобные страницы:
Код:Ну и конечно же следует закрыть системные папки:Disallow: /*?
Код:Последнюю строку можно еще доработать. В папке wp-content лежат еще папки плагинов, кеша, тем и картинок.Disallow: /wp-content/ Disallow: /wp-admin/ Disallow: /wp-includes/
Их можно запретить так же. Но я бы рекомендовал не закрывать картинки к индексации, так как они могут принести дополнительный трафик. По этому лучше будет отдельно исключить папки plugins, cache, themes:
Код:Опять-таки не забываем указать главное зеркало и ссылку на файл sitemapDisallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes
Код:В итоге у нас получился такой Robots.txt для WPHost: site.ru (или www.site.ru) Sitemap: http://site.ru/sitemap.xmlКод:Robots.txt составлен для актуальной на этот момент версии WP 3.4.1User-agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /trackback Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: */comment-page Disallow: /page/ Disallow: /category/*/ Disallow: /2012/ Disallow: /tag/ Disallow: /*? Disallow: /wp-content/ Disallow: /wp-includes/ Allow: /wp-content/uploads Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes User-agent: Yandex Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /trackback Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: */comment-page Disallow: /page/ Disallow: /category/*/ Disallow: /2012/ Disallow: /tag/ Disallow: /*? Disallow: /wp-content/ Disallow: /wp-includes/ Allow: /wp-content/uploads Host: site.ru (или www.site.ru) Sitemap: http://site.ru/sitemap.xml
Вот собственно и все, другими CMS я не пользуюсь и ничего о них не могу написать.
Всем спасибо за внимание, буду рад услышать дополнения/исправления.
Тонкости настройки robots.txt для разных CMS [Конкурсная статья]
(Ответов: 71, Просмотров: 25784)
- 21.07.2012 18:56
Последний раз редактировалось MacLeo; 23.07.2012 в 17:07. Причина: Дополнил, убрал лишнее
Спасибо сказали:
a.kravtsov1987(16.01.2014), Aaron Hill(20.02.2014), akrustam(24.07.2012), Andoner(23.07.2012), b00mer(23.07.2012), BastLegenda(09.06.2013), bljaher(11.07.2014), chater(25.07.2012), CuxpecT(23.07.2012), dmg.shark(23.07.2012), edger(25.07.2012), epp(23.07.2014), feuer81(30.09.2012),giga(29.07.2012),Green-Seo(23.07.2012),IceSkip(02.09.2012), JumJum(15.05.2013), kari74(23.07.2012), Kopylov(21.07.2012), mmi(22.04.2013), narolskay(23.07.2012), Nickson(21.07.2012), OKyJIucT(24.07.2012), oleg_ug(23.07.2012), Orcstation(21.07.2012), piratstvo(23.07.2012), Psihard(12.05.2014),ROMASA464(01.09.2013),Saros777(24.07.2012), SeoDevil(20.04.2013), shabananton(24.07.2012), sprigan(20.04.2013), stickman(11.01.2013), Talismanchik(14.07.2013), timur141194(25.07.2012), Vadik(03.04.2013), Vasily888(31.01.2016), vefaro(24.02.2016), wolf28(21.07.2012), zhalkij(11.07.2014), zhurik(28.03.2013), Zzzadruga(02.04.2013), Вадим(21.07.2012), - 21.07.2012 19:46
- 21.07.2012 19:50
Kopylov, просмотрел, спасибо, исправился. Раньше как то делал без Allow, видимо как то по другому делал, а забыл :)
- 21.07.2012 21:03
отлично написано: все очень доступно и по полочкам:)
- 22.07.2012 00:52
MacLeo, спасибо за статью. У меня один вопрос, касающийся защиты сайта на WP. Довольно часто сайты на WP взламывают, пытаясь подобрать логин и пароль админа, либо же изменить электронный ящик, на который админка высылает пароль на сайт в случае его утери. Для начала взлома сайта хакеру нужна страница ввода логина-пароля или страница запроса нового пароля. Используя ваш файл robots.txt злоумышленник видит адреса этих страниц.
На своих проектах я всегда переименовываю стандартные адреса страниц входа в админку и запроса нового пароля и не прописываю их в роботсе. Зачем запрещать эти страницы к индексированию, если ссылок на них нигде нет? Как поисковик попадет на нее, чтобы проиндексировать?
За статью еще раз спасибо.Спасибо сказали:
MacLeo(22.07.2012), - 22.07.2012 23:57
blazhnov, спасибо за замечание, не подумал немного :)
Убрал wp-admin, добавил блокировку страниц сайта, страниц сайта в категориях, меток и архивов - 23.07.2012 09:05
Если не изменяет память, тема поднималась неоднократно. Некоторые предыдущие ТС и автор MacLeo советуют закрыть метки и рубрики (Disallow: /tag/* Disallow: /category/*/*), чего делать категорический не рекомендую. В моем случае, после закрытия, трафик с поисковиков уже через 10 дней упал на 30%. Рассчитывал, что восстановится, но чуда не произошло. Для ГС это существенное падение показателей, для нормального сайта также не рекомендую закрывать метки и рубрики. Чтоб правильно выдавались рубрики и метки в поиске, и привлекали посетителей, рекомендую не полениться и прописать описание рубрик и меток.
Спасибо сказали:
zhalkij(11.07.2014), - 23.07.2012 11:06
Статья интересная, прочитал с любопытством. После прочтения вопрос возник, по поводу системной папки /engine/, разве ее закрывать не нужно?
Последний раз редактировалось MtvKat; 23.07.2012 в 11:09.
- 23.07.2012 12:12
Автор конечно молодец, но с таким материалом имхо не выиграешь. Много пропущенных элементов в роботсе для DLE, которые повторяют материал на сайте или выдают не нужный.
Для WP также можно использовать другой Роботс (я им пользуюсь 2 года) в сочетании с плагинами.
Материал просто написан на скорую руку, таких в интернете полно. Чисто мое мнение, не сочтите как оскорбление. - 23.07.2012 14:14
Спасибо сказали:
bleik(23.07.2012),
Тэги топика:
Похожие темы
Темы | Раздел | Ответов | Последний пост |
---|---|---|---|
SEO оптимизация форумов. Конкурсная статья | Оптимизация, SEO | 25 | 17.08.2012 14:09 |
Азы Внутренней перелинковки сайта - asold (конкурсная статья) | Оптимизация, SEO | 2 | 19.02.2012 21:38 |
Продвижение сайта в Twitter (конкурсная статья) | Социальные сети | 13 | 03.11.2011 16:34 |
Признаки трастового сайта (конкурсная статья) | Обучающие статьи | 14 | 26.10.2011 02:00 |
SEO оптимизация флеш сайтов - Конкурсная статья | Оптимизация, SEO | 7 | 29.06.2011 01:44 |